部分标签学习是一种弱监督的学习,每个培训实例都对应于一组候选标签,其中只有一个是正确的。在本文中,我们介绍了一种针对此问题的新型概率方法,与现有方法相比,该方法至少具有三个优势:它简化了训练过程,改善了性能并可以应用于任何深层体系结构。对人工和现实世界数据集进行的实验表明,诺言的表现优于现有方法。
translated by 谷歌翻译
我们介绍Protopool,一个可解释的图像分类模型,其中包含类的原型池。培训比现有方法更直接,因为它不需要修剪阶段。通过向特定类别引入完全可分辨分配的原型来获得它。此外,我们介绍了一种新的焦点相似度,将模型集中在罕见的前景特征上。我们表明Protopool在Cub-200-2011和斯坦福汽车数据集上获得最先进的准确性,大大减少了原型的数量。我们提供了对方法和用户学习的理论分析,以表明我们的原型比具有竞争方法所获得的原型更具独特。
translated by 谷歌翻译
由于其弱监督性,多个实例学习(MIL)在许多现实生活中的机器学习应用中都获得了受欢迎程度。但是,解释MIL滞后的相应努力,通常仅限于提出对特定预测至关重要的袋子的实例。在本文中,我们通过引入Protomil,这是一种新型的自我解释的MIL方法,该方法受到基于案例的推理过程的启发,该方法是基于案例的推理过程,该方法在视觉原型上运行。由于将原型特征纳入对象描述中,Protomil空前加入了模型的准确性和细粒度的可解释性,我们在五个公认的MIL数据集上进行了实验。
translated by 谷歌翻译
最近,引入了图像表示学习的自我监督方法,以与其完全监督的竞争对手相比,以较高的结果或卓越的结果提供了解释自我监督的方法的相应努力。在这一观察过程中,我们引入了一个新颖的视觉探测框架,用于通过利用自然语言处理中使用的探测任务来解释自我监督模型。探测任务需要有关图像部分之间语义关系的知识。因此,我们提出了一种系统的方法来获得视觉,视觉,上下文和分类学等自然语言的类似物。我们的建议基于Marr的视觉计算理论和质地,形状和线条等特征。我们在解释自我监督的表示的背景下显示了这些类似物的有效性和适用性。我们的主要发现强调,语言和视觉之间的关系可以作为发现机器学习模型如何工作(独立于数据模式)的有效但直观的工具。我们的工作打开了大量的研究途径,通向更可解释和透明的AI。
translated by 谷歌翻译
Deep learning models are being increasingly applied to imbalanced data in high stakes fields such as medicine, autonomous driving, and intelligence analysis. Imbalanced data compounds the black-box nature of deep networks because the relationships between classes may be highly skewed and unclear. This can reduce trust by model users and hamper the progress of developers of imbalanced learning algorithms. Existing methods that investigate imbalanced data complexity are geared toward binary classification, shallow learning models and low dimensional data. In addition, current eXplainable Artificial Intelligence (XAI) techniques mainly focus on converting opaque deep learning models into simpler models (e.g., decision trees) or mapping predictions for specific instances to inputs, instead of examining global data properties and complexities. Therefore, there is a need for a framework that is tailored to modern deep networks, that incorporates large, high dimensional, multi-class datasets, and uncovers data complexities commonly found in imbalanced data (e.g., class overlap, sub-concepts, and outlier instances). We propose a set of techniques that can be used by both deep learning model users to identify, visualize and understand class prototypes, sub-concepts and outlier instances; and by imbalanced learning algorithm developers to detect features and class exemplars that are key to model performance. Our framework also identifies instances that reside on the border of class decision boundaries, which can carry highly discriminative information. Unlike many existing XAI techniques which map model decisions to gray-scale pixel locations, we use saliency through back-propagation to identify and aggregate image color bands across entire classes. Our framework is publicly available at \url{https://github.com/dd1github/XAI_for_Imbalanced_Learning}
translated by 谷歌翻译
The number of standardized policy documents regarding climate policy and their publication frequency is significantly increasing. The documents are long and tedious for manual analysis, especially for policy experts, lawmakers, and citizens who lack access or domain expertise to utilize data analytics tools. Potential consequences of such a situation include reduced citizen governance and involvement in climate policies and an overall surge in analytics costs, rendering less accessibility for the public. In this work, we use a Latent Dirichlet Allocation-based pipeline for the automatic summarization and analysis of 10-years of national energy and climate plans (NECPs) for the period from 2021 to 2030, established by 27 Member States of the European Union. We focus on analyzing policy framing, the language used to describe specific issues, to detect essential nuances in the way governments frame their climate policies and achieve climate goals. The methods leverage topic modeling and clustering for the comparative analysis of policy documents across different countries. It allows for easier integration in potential user-friendly applications for the development of theories and processes of climate policy. This would further lead to better citizen governance and engagement over climate policies and public policy research.
translated by 谷歌翻译
我们考虑了一个新颖的表述,即主动射击分类(AFSC)的问题,其目的是对标签预算非常限制的小规定,最初未标记的数据集进行分类。这个问题可以看作是与经典的跨托管少数射击分类(TFSC)的竞争对手范式,因为这两种方法都适用于相似的条件。我们首先提出了一种结合统计推断的方法,以及一种非常适合该框架的原始两级积极学习策略。然后,我们从TFSC领域调整了几个标准视觉基准。我们的实验表明,AFSC的潜在优势可能是很大的,与最先进的TFSC方法相比,对于同一标签预算,平均加权准确性高达10%。我们认为,这种新的范式可能会导致数据筛选学习设置的新发展和标准。
translated by 谷歌翻译
通过磁共振成像(MRI)评估肿瘤负担对于评估胶质母细胞瘤的治疗反应至关重要。由于疾病的高异质性和复杂性,该评估的性能很复杂,并且与高变异性相关。在这项工作中,我们解决了这个问题,并提出了一条深度学习管道,用于对胶质母细胞瘤患者进行全自动的端到端分析。我们的方法同时确定了肿瘤的子区域,包括第一步的肿瘤,周围肿瘤和手术腔,然后计算出遵循神经符号学(RANO)标准的当前响应评估的体积和双相测量。此外,我们引入了严格的手动注释过程,其随后是人类专家描绘肿瘤子区域的,并捕获其分割的信心,后来在训练深度学习模型时被使用。我们广泛的实验研究的结果超过了760次术前和504例从公共数据库获得的神经胶质瘤后患者(2021 - 2020年在19个地点获得)和临床治疗试验(47和69个地点,可用于公共数据库(在19个地点获得)(47和69个地点)术前/术后患者,2009-2011)并以彻底的定量,定性和统计分析进行了备份,表明我们的管道在手动描述时间的一部分中对术前和术后MRI进行了准确的分割(最高20比人更快。二维和体积测量与专家放射科医生非常吻合,我们表明RANO测量并不总是足以量化肿瘤负担。
translated by 谷歌翻译
本文介绍了有关开发的原型的研究,以服务公共政策设计的定量研究。政治学的这种子学科着重于确定参与者,之间的关系以及在健康,环境,经济和其他政策方面可以使用的工具。我们的系统旨在自动化收集法律文件,用机构语法注释它们的过程,并使用超图来分析关键实体之间的相互关系。我们的系统经过了《联合国教科文组织公约》的保护,以保护2003年的无形文化遗产,这是一份法律文件,该文件规定了确保文化遗产的国际关系的基本方面。
translated by 谷歌翻译
机器学习(ML)在渲染影响社会各个群体的决策中起着越来越重要的作用。 ML模型为刑事司法的决定,银行业中的信贷延长以及公司的招聘做法提供了信息。这提出了模型公平性的要求,这表明自动化的决策对于受保护特征(例如,性别,种族或年龄)通常是公平的,这些特征通常在数据中代表性不足。我们假设这个代表性不足的问题是数据学习不平衡问题的必然性。此类不平衡通常反映在两个类别和受保护的功能中。例如,一个班级(那些获得信用的班级)对于另一个班级(未获得信用的人)可能会过分代表,而特定组(女性)(女性)的代表性可能与另一组(男性)有关。相对于受保护组的算法公平性的关键要素是同时减少了基础培训数据中的类和受保护的群体失衡,这促进了模型准确性和公平性的提高。我们通过展示这些领域中的关键概念如何重叠和相互补充,讨论弥合失衡学习和群体公平的重要性;并提出了一种新颖的过采样算法,即公平的过采样,该算法既解决偏斜的类别分布和受保护的特征。我们的方法:(i)可以用作标准ML算法的有效预处理算法,以共同解决不平衡和群体权益; (ii)可以与公平感知的学习算法结合使用,以提高其对不同水平不平衡水平的稳健性。此外,我们迈出了一步,将公平和不平衡学习之间的差距与新的公平实用程序之间的差距弥合,从而将平衡的准确性与公平性结合在一起。
translated by 谷歌翻译